Telegram Group & Telegram Channel
دادگان PCoQA: Persian Conversational Question Answering

دادگان (دیتاست) جدیدی به نام PCoQA منتشر شده که شامل ۹۰۲۶ پرسش از ۸۷۰ صفحه ویکی‌پدیاست. هر گفتمان (conversation) روی یک صفحه ویکی‌پدیا انجام شده و طول هر گفتمان هم حدودا ۱۰ است. به منظور ارزیابی انسانی شبیه دادگان‌های گذشته مثل SQuAD و CoQA، برای هر پرسش در مجموعه‌ی ارزیابی و تست چندین پاسخ دراومده و دقت F1 انسان‌ها و چندین مدل بر روی پاسخ‌دهی به این پرسش‌ها بدست اومده که برای انسان حدودا ۸۶ درصده.

دو نوع مدل روی این داده تست شده. یکی با فقط فاین‌تیون کردن چند مدل زبانی ترنسفورمری روی همین دادگان و یک مدل دیگه هم با فاین‌تیون کردن مدل روی دادگان قبلی QA و بعد فاین تیون روی این دادگان و بعد تست گرفتن.

دو خصوصیت مهم این دیتاست:
- پرسش‌های این دادگان بیشتر open ended هستند، بر خلاف قبلی‌ها مثل CoQA و SQuAD که بیشتر به شکلی مصنوعی‌ بر روی named entity و noun phrase متمرکزند.
- سعی شده lexical overlap تا حد امکان کاهش داده بشه تا کیفیت بالاتر بیاد.

لینک مقاله: 
arxiv.org/abs/2312.04362

لینک گیت‌هاب:
github.com/HamedHematian/PCoQA

#dataset

@nlp_stuff



tg-me.com/nlp_stuff/345
Create:
Last Update:

دادگان PCoQA: Persian Conversational Question Answering

دادگان (دیتاست) جدیدی به نام PCoQA منتشر شده که شامل ۹۰۲۶ پرسش از ۸۷۰ صفحه ویکی‌پدیاست. هر گفتمان (conversation) روی یک صفحه ویکی‌پدیا انجام شده و طول هر گفتمان هم حدودا ۱۰ است. به منظور ارزیابی انسانی شبیه دادگان‌های گذشته مثل SQuAD و CoQA، برای هر پرسش در مجموعه‌ی ارزیابی و تست چندین پاسخ دراومده و دقت F1 انسان‌ها و چندین مدل بر روی پاسخ‌دهی به این پرسش‌ها بدست اومده که برای انسان حدودا ۸۶ درصده.

دو نوع مدل روی این داده تست شده. یکی با فقط فاین‌تیون کردن چند مدل زبانی ترنسفورمری روی همین دادگان و یک مدل دیگه هم با فاین‌تیون کردن مدل روی دادگان قبلی QA و بعد فاین تیون روی این دادگان و بعد تست گرفتن.

دو خصوصیت مهم این دیتاست:
- پرسش‌های این دادگان بیشتر open ended هستند، بر خلاف قبلی‌ها مثل CoQA و SQuAD که بیشتر به شکلی مصنوعی‌ بر روی named entity و noun phrase متمرکزند.
- سعی شده lexical overlap تا حد امکان کاهش داده بشه تا کیفیت بالاتر بیاد.

لینک مقاله: 
arxiv.org/abs/2312.04362

لینک گیت‌هاب:
github.com/HamedHematian/PCoQA

#dataset

@nlp_stuff

BY NLP stuff






Share with your friend now:
tg-me.com/nlp_stuff/345

View MORE
Open in Telegram


NLP stuff Telegram | DID YOU KNOW?

Date: |

However, analysts are positive on the stock now. “We have seen a huge downside movement in the stock due to the central electricity regulatory commission’s (CERC) order that seems to be negative from 2014-15 onwards but we cannot take a linear negative view on the stock and further downside movement on the stock is unlikely. Currently stock is underpriced. Investors can bet on it for a longer horizon," said Vivek Gupta, director research at CapitalVia Global Research.

Why Telegram?

Telegram has no known backdoors and, even though it is come in for criticism for using proprietary encryption methods instead of open-source ones, those have yet to be compromised. While no messaging app can guarantee a 100% impermeable defense against determined attackers, Telegram is vulnerabilities are few and either theoretical or based on spoof files fooling users into actively enabling an attack.

NLP stuff from id


Telegram NLP stuff
FROM USA